11. 折扣回报
折扣回报
注意:在这门课程中,我们将随意使用“回报”和“折扣回报”。在随机时间步 t, 都称之为 G_t \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots = \sum_{k=0}^\infty \gamma^k R_{t+k+1}, 其中 \gamma \in [0,1]。尤其,当我们指代“回报”时,并不一定就是\gamma = 1,当我们指代“折扣回报”时,并不一定就是\gamma < 1。 (推荐的教科书中的数据也是这样。)